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jj 要 : 快速 射电 暴 (Fast Radio Burst, FRB) 及 旋转 射电 暂 现 源 (Rotating Radio Transient, 
RRAT) 等 一 些 没有 明显 周期 性 的 天 体 发 现 以 来 ， 单 脉冲 搜索 受到 研究 人 员 广 泛 关注 ， 同 时 随 着 
射电 望远镜 设备 日 趋 完善 ， 更 高 分 辨 率 和 更 广阔 的 观测 空间 产生 的 观测 数据 量 剧 增 ， 加 快 对 观 
测 数据 的 处 理 迫 在 眉 睫 。 介 绍 了 PRESTO (PulsaR Exploration and Search Toolkit) 中 单 脉冲 搜索 ， 
使 用 Cython 编 程 方式 对 单 脉冲 搜索 中 去 趋势 算法 进行 优化 , 并 通过 Ray 框 架 实 现 单 脉 冲 搜索 在 中 
天 处 理 器 (Central Processing Units, CPU) 上 并 行 化 。 实 验 结 果 表 明 ， 算 法 优化 后 的 单 脉冲 搜索 并 
行 化 , 能 明显 提升 搜索 程序 性 能 , 显著 缩短 数据 处 理 时 间 , 同时 该 并 行 策略 仅 基 于 中 央 处 理 器 ， 
无 需 修 改 代 码 即 可 在 纯 中 央 处 理 器 环境 下 实现 高 性 能 数据 处 理 。 
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1 介绍 


脉冲 星 是 一 类 特殊 的 中 子 星 ， 有 具有 极 强 的 磁场 和 极其 稳定 的 旋转 周期 。 基 于 脉冲 星 稳定 的 
周期 性 , 目前 脉冲 星 探 测 主 要 使 用 快速 傅 里 叶 变 换 (Fast Fourier Transform, FFON RENER 
法 (Fast Folding algorithm，FEFA)D 在 时 域 上 周期 性 搜索 。 然 而 ， 探 测 研究 显示 ， 有 一 些 脉冲 星 
并 没有 呈现 明显 的 周期 性 ， 如 零 脉 冲 星 C、 间 区 性 脉冲 星 ， 以 及 文 [4 发 现 的 特殊 天 文 脉冲 信和 号 
快速 射电 暴 与 文 [5] 发 现 的 旋转 射电 暂 现 源 ， 这 类 天 体 不 能 使 用 周期 性 搜索 方法 搜寻 ， 需 要 通过 
单 脉冲 搜索 进行 搜寻 。 
进入 21 世 纪 以 来 ， 射电 望远镜 设备 日 趋 完善 ， 更 高 分 辩 率 的 观测 使 得 脉冲 星 搜索 数据 量 下 
以 TB，PB 甚 至 EB 量 级 的 速度 快速 增长 四。2020 年 1 月 11 日 ，500m 口 径 球面 射电 望远镜 
(Five-hundred-meter Aperture Spherical radio Telescope，FAST) 正 式 投 入 运行 。 随 着 FAST 的 高 效 
运行 , 据 估 计 , 通过 L 波 段 19 波 束 接收 机 收集 的 观测 数据 , 每 小 时 可 达 1.6TB , 每 年 数据 量 在 10 20 
PB!， 数 据 量 的 激增 给 存储 和 处 理 数据 带 来 严峻 考验 。 另 外 根据 预测 ， 银 河 系 内 大 约 有 15 万 颗 
潜在 脉冲 星 ， 其 中 可 探测 脉冲 星 大 约 有 30000 颗 外 。 然 而 ， 目 前 在 ATNF(Australia Telescope 
National Facility) 收录 的 脉冲 星 数 量 不 超过 3500 颗 (https://www.atnf.csiro.au/research/pulsar/psrcat/) ES 
此 ， 银 河 系 中 仍 有 许多 脉冲 星 未 探测 到 。 高 效 处 理 这 些 数 据 已 经 极为 迫切 ， 否 则 会 制约 FAST 对 
脉冲 星 的 科学 发 现 。 
月 前 和 常用 的 单 脉 冲 搜 索 工 具有 PRESTO(PulsaR Exploration and Search 
Toolkit)(https:/www.cv.nrao.edu/~sransom/presto/) 中 single_pulse_search.py , 
SIGPROC(https://sourceforge.net/projects/sigproc/) 中 SEEK， 以 及 基于 图 形 处 理 器 (Graphics Processing 
Unit, GPU) 加 速 的 单 脉 冲 搜 索 专 用 软件 HEIMDALL(https://sourceforge.net/projects/heimdall-astro/) o 
PRESTO 是 由 Scott Ransom 开 发 的 大 型 脉冲 星 搜索 和 分 析 软 件 套件 中， 是 开展 脉冲 星 搜索 最 常用 
AK 件 之 一 ， 该 Kk ftu $9 t5 k B E 过 700 € Bk 冲 星 
(https://baijiahao.baidu.com/s?id21689281702839604685& wfr-spider&for-pc) 。FAST 观 测 主要 使 用 PRESTO 
进行 脉冲 星 搜索 "90， 但 PRESTO 开 发 较 早 ， 搜 索 流 程 大 多 采用 单 核 串 行 方式 ， 面 对 海量 脉冲 星 
观测 数据 ，PRESTO 搜 索 速度 仍 有 欠缺 ， 如 果 运 用 并 行 编程 技术 从 而 充分 利用 多 核 处 理 器 计算 
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资源 ， 将 明显 提升 数据 处 理性 能 ， 加 快 科 学 发 现 的 步伐 。 本 文 首先 介绍 单 脉 冲 搜索 技术 ， 分 析 
当前 单 脉 冲 搜索 流程 及 特点 ， 对 PRESTO 中 单 脉 冲 搜索 算法 中 的 去 趋势 (detrend) 算法 进行 优化 ， 
并 对 优化 后 的 单 脉冲 搜索 并 行 化 。 实 验 结果 表明 ， 算 法 优化 及 中 央 人 处 理 器 并 行 化 显著 缩短 了 数 
据 处 理 时 间 ， 单 脉冲 搜索 性 能 得 到 一 定 的 提升 。 


2 单 脉 冲 搜索 


单 脉 冲 搜 索 算 法 最 早 由 文 [11] 提 出 ， 综 合影 响 所 接收 脉冲 的 信号 强度 、 形 状 和 宽度 的 各 入 
因素 ， 近 似 的 信号 模型 描述 为 
I(t) = grgaS(t) * hpmlt) * ha(t) * hrx(t) + N(t), (1) 
其 中 ， 源 信号 Sb 由 对 应 于 折射 和 衍射 内 烁 的 调制 因子 go 和 ga 调制 ， 同 时 卷 积 几 个 因素 (用 星 号 
表示 ) ， 这 些 因 素 包 括 色 散 涂 抹 hpm(t)、 多 路 径 传 播 引 起 的 脉冲 展 宽 ha(t) 以 及 接收 器 和 数据 采 
集 系 统 的 平均 值 hry(t)，N(t) 为 附加 接收 机 噪声 ， 在 很 大 程度 上 与 hpw(t) 相 关 的 色散 涂抹 可 以 
从 信号 中 去 卷 积 。 但 如 果 没 有 使 用 精准 的 色散 测量 值 Dispersion Measure，DM) ， 可 能 会 有 残 
留 的 色散 涂抹 。 
收集 到 的 信号 脉冲 宽度 描述 为 


2 2\1/2 
Wops — UNT F hama ab Wint” + Atpm + Atspm ) (2) 


其 中 ，kscatt 为 散射 时 间 ，tsamz 为 采样 时 间 ，wint 为 脉冲 回 有 宽度 ， Atpw 为 由 色散 测量 产生 的 随 
频率 变化 的 涂抹 ， 定 义 为 


Atpu = 8.3 7 (us), (3) 
G) 式 中 ，Av 为 总 带宽 ,pv 为 观测 频率 ，Atspm 为 使 用 不 正确 的 消 色 散 产 生 的 涂抹 ， 定 义 为 
8.3 NonanAyz6DM 
Atspy = (KS) (4) 


CD 式 中 ，Nenan 为 频率 通道 数 ，5DM 为 试验 色散 测量 值 与 真实 色散 测量 值 的 误差 。 

根据 文 [11] 提 出 的 单 脉冲 搜索 理论 ，PRESTO 中 单 脉 冲 搜索 主要 分 为 3 个 阶段 : 数据 准备 、 
单 脉 冲 搜 索 和 结果 诊断 。 单 脉冲 搜索 流程 如 图 1， 其 中 ， 紫 色 部 分 为 数据 准备 阶段 ,绿色 部 分 为 
单 脉冲 搜索 阶段 ， 蓝 色 部 分 为 结果 诊断 阶段 。 数 据 准备 阶段 主要 是 标记 干扰 信号 ， 设 定 消 色 散 
方案 并 对 观测 数据 消 色 散 ， 得 到 不 同色 散 测 量 值 对 应 的 dat 文 件 ， 单 脉冲 搜索 阶段 主要 对 时 间 序 
列 去 趋势 ， 匹 配 滤波 ， 筛 选 候 选 体 信 息 ， 根 据 候选 体 信 息 生 成 搜索 结果 图 ; 结果 诊断 阶段 主要 
对 候选 体 信息 进一步 判断 是 否 包含 天 体 信号 。 
目前 大 量 针 对 PRESTO 软 件 的 优化 与 改进 工作 取得 了 较 好 的 效果 , 如 文 [12] 使 用 图 形 处 理 器 
实现 消 色 散 加 速 ， 文 [13] 在 中 央 处 理 器 上 实现 消 色散 、 快 速 传 里 叶 变 换 和 加 速 搜索 的 并 行 化 ， 
文 [14] 开 发 的 以 单个 观测 数据 文件 划分 任务 的 并 行 计算 任务 调度 系统 ， 文 [15] 针 对 FAST 特 定 参 
数 空间 ， 优 化 了 PRESTO 脉 冲 星 候选 体 图 像 输 出 ， 文 [16] 利 用 并 行 化 技术 在 图 形 处 理 器 上 对 
PRESTO 中 的 加 速度 搜索 进行 了 优化 。 

针对 PRESTO 中 单 脉 冲 搜 索 阶段 的 优化 , 文 [17] 采 用 python 中 的 multiprocessing 模 块 实现 基于 
中 央 处 理 器 并 行 加 速 单 脉 冲 搜 索 ， 但 文中 并 未 对 具体 实现 及 加 速效 果 进 行 介绍 ， 本 文 将 对 其 具 
体 介绍 并 进行 实验 复 现 。 
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End 


图 1 单 脉冲 搜索 流程 图 


Fig. 1 Single pulse search process flowchart 
3 单 脉 冲 搜索 算法 优化 及 并 行 化 
3.1 单 脉 冲 搜索 的 算法 优化 


本 文 在 处 理 器 为 AMD Ryzen 7 2700x eight-core processorx16， 内 存 为 64GB ， 操 作 系统 为 
Ubuntu 18 的 硬件 环境 下 , 使 用 FAST 的 观测 数据 文件 FH20201014_00C10.fits 对 PRESTO 中 单 脉冲 
搜索 程序 single_pulse_search.py 进 行 性 能 分 析 发 现 ， 去 趋势 算法 部 分 约 占 single_pulse_search.py 
程序 总 时 间 开 销 的 60% 左 右 。single_pulse_search.py 程 序 各 步骤 耗 时 情况 如 表 1,， 如 果 能 提高 去 趋 
势 算法 的 性 能 ， 则 PRESTO 中 单 脉冲 搜索 算法 的 整体 性 能 将 明显 提升 。 

表 1 单 脉 冲 搜索 阶段 各 步骤 耗 时 情况 


Table 1 Time consumption of each step in the single pulse search process 


Convolution Threshold Recording Total Time 

Read Pilg Detrend Operation Filtering Candidates Others Consumed 
Consumed/s 0.61 92.65 18.01 9.31 0.61 28.07 149.28 
Percentage/% 0.41 62.07 12.07 6.24 0.41 18.81 100.00 


去 趋势 是 抑制 信号 在 采集 过 程 中 由 于 长 时 间 观 测 导 致 的 功率 谱 波 动 , 以 得 到 最 佳 检 测 效果 。 
原 程序 中 去 趋势 算法 是 调用 Python 数学 计算 库 Scipy 中 信和 号 处 理 模块 signal 中 的 detrend 方 法 实现 。 
该 方法 的 核心 是 使 用 最 小 二 乘法 计算 求 得 拟 合 直 线 的 参数 ， 但 在 该 方法 的 运算 流程 中 ， 存 在 重 
构 以 及 复原 数据 形状 ， 以 及 计算 多 余 参 数 的 计算 ， 原 detrend 去 趋势 算法 流程 如 图 2(a)。 本 文 对 该 
方法 进行 优化 ， 重 新 设计 去 趋势 的 运算 流程 ， 移 除 原 方法 中 元 余 计 算 ， 减 少 不 必 要 开销 ， 优 化 
后 去 趋势 算法 流程 如 图 2(b): CD 原 方法 中 数据 形状 重 构 及 类 型 转换 是 为 了 得 到 适合 计算 的 数 
据 类 型 ， 在 优化 的 算法 中 ， 直 接 将 时 间 序 列 数据 转换 为 Cython 文 持 的 list 类 型 ， 减 少数 据 形 状 重 
构 及 类 型 转换 带 来 的 运算 开销 。 〈2) 原 方 法 中 最 小 二 乘法 分 别 计 算 回 归 系 数 (coeD、 残 差 平 方 
和 (resids)、 自 变量 秩 (rank) 和 自 变量 奇异 值 (s)， 而 对 于 拟 合 直线 ， 只 需要 计算 回归 系数 即 可 ; 在 
优化 算法 中 ， 重 新 设计 最 小 二 乘法 只 计算 回归 系数 (coef)， 并 基于 Cython 编 程 方 式 实现 最 小 二 乘 
法 ， 减 少 其 他 参数 计算 带 来 的 开销 。 
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(a) 
图 2 (a) detrend 方法 运算 流程 图 ; (b) 优化 后 detrend 运算 流程 图 
(a) Flow chart of detrend method; (b) flow chart of optimized detrend method 


3.2 基于 去 趋势 算法 优化 后 的 并 行 化 
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(b) 


脉冲 星 搜索 场景 需要 处 理 大 量 小 文件 ， 同 时 伴随 频繁 的 读 写 操作 ， 如 果 基 于 图 形 处 理 
器 并 行 ， 面 对 大 量 小 文件 的 搜索 场景 很 难 发 挥 图 形 处 理 器 的 高 性 能 ""， 同 时 搜索 算法 本 身 存在 
过 多 数据 依赖 或 控制 依赖 问题 ， 这 也 极 大 影响 加 速效 果 ， 因 此 本 文选 择 在 中 央 处 理 器 并 行 化 。 


理论 上 ， 一 台 计 算 机 有 多 少 个 中 央 处 理 咒 内核， 计算 就 可 以 同时 运行 多 少 个 进程 。 而 目前 


单 脉冲 搜索 程序 的 算法 还 是 基于 单 核 串 行 设计 的 ， 这 显然 已 经 不 符合 多 核 时 代 并 行 算法 主流 ， 
因此 有 必要 从 并 行 化 角度 出 发 ， 将 串 行 执行 的 单 脉冲 搜索 算法 并 行 化 ， 从 而 充分 利用 多 核 中 央 


处 理 器 的 并 行 能 力 ， 提 高 程序 的 性 能 。 


对 单 脉冲 搜索 流程 分 析 , 单 脉冲 搜索 程序 在 对 不 同 dat 文 件 进行 搜索 时 , 输出 不 同 singlepulse 
文件 ,不同 dat 文 件 之 间 不 存在 数据 耦合 的 情况 ， 每 一 个 dat 文 件 的 搜索 都 相互 独立 ， 因 此 只 需要 
给 不 同 dat 文 件 ， 使 用 不 同 进程 各 自 进行 搜索 就 可 以 实现 单 脉冲 搜索 并 行 化 。 
脉冲 搜索 阶段 的 具体 流程 中 ， 每 一 个 dat 文 件 得 到 的 搜索 结果 ， 都 需要 写 入 一 个 全 局 


XE ri B 


列表 中 保存 。 如 果 对 单 脉冲 搜索 流程 不 加 以 改 ; 


便 并 行 化 ， 每 个 进程 将 搜索 结果 写 入 全 局 列表 
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会 带 来 一 部 分 进程 间 的 通信 
为 了 减少 i 
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FA, 从 而 影响 加 速效 果 , 原单 脉冲 搜索 直接 并 行 化 示意 图 如 图 3(a)。 
程 间 通信 开销 ， 对 单 脉冲 搜索 流程 加 以 改进 ， 将 每 一 个 dat 文 件 的 搜索 结果 返回 ， 在 


所 有 dat 文 件 搜索 完成 后 ， 再 将 搜索 结果 写 入 全 局 列表 中 ， 改 进 后 的 单 脉冲 搜索 并 行 化 示意 图 如 
图 3(b)。 


F 


(b) 


3 (a) 直接 并 行 化 示意 图 ; (b) 优化 后 并 行 化 示意 图 


ig. 3 (a) Diagram of direct parallelization; (b) diagram of optimized parallelization 


3.2.1 基于 multiprocessing 模 块 的 并 行 化 


程序 从 单 进程 执行 转换 为 多 i 


对 于 不 同 的 脉冲 星 观测 文件 ， 


Python 标准 库 multiprocessing 是 一 个 多 进程 并 行 数据 处 理 方案 ， 可 以 帮助 开发 者 轻松 完成 将 


程 并 行 执行 ， 且 技术 复杂 度 不 高 。 
] 以 及 在 DDplan 规 划 消 色散 步 长 时 使 用 的 不 同 参数 ， 生 成 的 dat 
文件 数量 相差 很 大 ， 如 果 并 行程 序 在 对 每 一 个 dat 文 件 单 脉冲 搜索 时 都 创建 和 销毁 进程 ， 会 给 程 


序 运 行 带 来 一 部 分 开销 ， 从 而 影响 程序 整体 性 能 。 为 此 ， 在 引入 multiprocessing 模 块 进行 单 脉冲 


搜索 并 行 化 的 同时 , 使 用 进程 池 ProcessPoolExecutor 管 理 多 进程 任务 ， 以 减少 创建 与 销毁 进程 带 
程 池 还 可 以 提高 程序 稳定 性 ， 避 免 程序 因 
使 用 multiprocessing 模 块 并 行 化 搜索 时 ， 首 先 设 定 进程 池 中 进程 的 数量 ， 由 进程 池 管理 这 些 


来 的 开销 ， 同 时 进 


dat 文 件 的 搜索 任务 。 


创建 过 多 进程 而 导致 程序 月 溃 。 


当 有 一 个 新 的 任务 请 求 提交 到 进程 池 时 ， 如 果 进 程 池 中 的 并 行 任务 未 满 ， 
则 创建 一 个 新 的 进程 执行 新 的 任务 请 求 ， 如 果 进 程 池 中 的 并 行 任务 已 满 ， 则 该 任务 会 等 待 ， 当 
进程 池 中 有 进程 空 采 时 ， 便 立即 响应 该 任务 请 求 。 


3.2.2 基于 Ray 框 架 的 并 行 化 


3E 


上 述 multiprocessing 模 块 实现 的 并 行 化 ， 由 于 存在 子 进程 与 主 进程 之 间 的 通信 ， 导 致 中 央 处 


器 使 用 率 不 高 ， 不 


能 达到 或 者 接近 100%， 对 此 ， 本 文 使 朋 


更 加 高 性 能 的 并 行 框架 Ray" 实现 


并 行 化 。Ray 是 加 州 大 学 伯克利 分 校 RISE 实 验 室 开发 的 分 布 式 计算 框架 ， 可 以 灵活 地 运行 任何 
计算 密集 型 Python 工作 负载 。 


使 用 Ray 对 单 脉冲 搜索 并 行 化 示意 图 如 图 4， 主 进程 执行 时 创建 全 局 调度 器 及 局 部 调度 器 ， 


全 局 调度 器 在 集群 部 署 模式 下 才 启 用 ， 在 此 不 费 述 。 当 主 进程 调用 remote 函 数 时 ， 向 局 部 调度 


器 提交 作 


将 结果 返回 。 


FE 务 ， 再 由 局 部 调度 器 向 本 地 机 器 中 的 worker 进 程 分 配 任务 ， 由 worker 进 程 完成 计算 并 
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Read nn dat 
files 


Create a DM list, 
candlist list, 
num v DMstr list 


Create a Local 
Scheduler 
Submit search tasks 
to the local scheduler 


The local scheduler allocates tasks 
according to the current worker 
process status information 


CPU1, Worker1 
DM:nl, nm«1, ~… 
Single pulse search 


CPU2, Worker2 
DM:n2, nm+2, -- 
Single pulse search 


CPUm, Workern 
DM:nm, nm«m, =, nn 
Single pulse search 


Record all 
candidates 


Result 


diagnosis 


图 4 基于 Ray 单 脉 冲 搜索 并 行 化 示意 图 


Fig. 4 Schematic diagram of parallelization of single pulse search based on Ray 
3.3 实验 结果 分 析 


对 单 脉冲 搜索 程序 算法 优化 及 并 行 化 对 比 实验 所 使 用 的 硬件 环境 : 处 理 器 为 AMD Ryzen 7 
2700x eight-core processor*16， 内 存 为 64GB， 操作 系统 为 Ubuntu 18。 本 文 对 FAST 的 观测 数据 
文件 (FH20201014_00C10， 数 据 参 数 见 表 2) 消 色散 后 生成 的 3500 个 dat 文件 进行 测试 。 实 验 使 
用 的 数据 参数 情况 如 表 2， 实 验 数据 的 消 色 散 方案 如 表 3。 


表 2 实验 数据 的 参数 


Table 2 Parameters of the experimental data 


Parameter Value Parameter Value 


Sample time/us 100 Spectra per file 262144 


Central frequency/MHz 546 Time per subint(sec) 0.8192 


:202301.00124v1 


chinaXiv 


ChinaXiv& E 


Low channel/MHz 290.125 Time per file(sec) 26.2144 
High channel/MHz 801.875 Bits per sample 8 
Channel width/MHz 0.25 Bytes per spectra 2048 
Number of channels 2048 Samples per subint 2048 
Total Bandwidth/MHz 512 Bytes per subint 16777216 
Spectra per subint 8192 Samples per subint 16777216 


de 3 实验 数据 的 消 色散 方案 


Table 3 Dedispersion scheme for experimental data 


Low DM High DM dDM DownSamp 
0.0 50.0 0.05 1 
50.0 100.0 0.05 2 
100.0 175.0 0.05 2 


在 相同 的 实验 环境 以 及 实验 数据 时 , 分 别 运行 优化 detrend 算 法 前 后 的 单 脉冲 搜索 程序 10 次 ， 


记录 每 次 运行 时 间 ， 得 到 图 5 的 实验 结果 ， 横 轴 为 运行 次 数 ， 纵 轴 为 耗 时 《〈 单 位: s), 

single_pulse_search_raw 为 原 程序 耗 时 情况 折线 图 , single_pulse_search_rm_rad 为 原 程序 去 除 元 余 
计算 后 耗 时 情况 折线 图 ，single_pulse_search_Cy_raw 为 使 用 Cython 重 新 编程 原 detrend 算 法 后 耗 
时 情况 折线 图 ，single_pulse_search_Cy_rm_rad 为 重新 设计 detrend 算 法 并 使 用 Cython 编 程 优化 后 
耗 时 情况 折线 图 。 由 图 5 可 以 看 出 ， 重 新 设计 detrend 算 法 并 使 用 Cython 编 程 优化 ， 相 比 于 原 程 序 


性 


能 提升 约 1.8 倍 。 


—*—single pulse search raw 
-E-single pulse search rm rad 
—-single pulse search Cy raw 


——single pulse search Cy rm rad 


Execution time(s) 
8 


1 2 3 4 5 6 7 8 9 10 
Execution number 


5 Cython 优化 后 程序 与 原 程序 执行 时 间 比 较 


Fig. 5 Comparison of time consumed between Cython optimized program and original program 


在 使 用 Cython 编 程 优化 detrend 算 法 基础 上 , 使 用 Ray 框 架 实 现 并 行 化 , 分 别 运 行 原单 脉冲 搜 


索 程 序 、 基 于 multiprocessing 并 行 化 程序 及 基于 Ray 并 行 化 程序 10 次 ， 记 录 每 次 运行 时 间 ， 得 到 
图 6 的 实验 结果 , 横 轴 为 运行 次 数 , 纵 轴 为 耗 时 (单位: s), raw 为 原 程序 耗 时 折线 图 , Cy. detrend 
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为 detrend 算 法 优化 后 耗 时 折线 图 ，multiprocessing 为 基于 detrend 算 法 优化 并 使 用 multiprocessing 
模块 对 程序 中 央 处 理 器 并 行 化 后 耗 时 折线 图 ，Ray 为 基于 detrend 算 法 优化 并 使 用 Ray 框 架 对 程序 
中 央 处 理 器 并 行 化 后 耗 时 折线 图 。 由 图 6 可 知 ， 采 用 Ray 框 架 对 单 脉冲 搜索 程序 改进 后 ， 本 文 并 
行 化 处 理 方法 耗 时 相 比 原单 脉冲 搜索 程序 有 极 大 提升 ， 加 速 比 提高 约 10 倍 ， 较 multiprocessing 模 
块 并 行 化 版 本 也 有 一 定 进步 ， 提 高 约 3 倍 。 综 合 来 看 ， 对 程序 的 优化 及 并 行 化 有 一 定 的 性 能 提升 
效果 。 


200 -——raw 
-m-Cy detrend 
180 —-multiprocessing 


——Ray 


M ——— mm 


Execution time(s) 
8 


1 2 3 4 5 6 7 8 9 10 
Execution number 


6 中 央 处 理 器 并 行 优 化 后 的 程序 与 原 程 序 执行 时 间 比 较 


Fig. 6 Comparison of CPU parallel optimized program and original program execution time 


对 比 优化 前 后 生成 的 搜索 结果 图 可 以 看 出 ， 本 文 提 出 的 基于 去 趋势 算法 优化 的 并 行 化 单 脉 
冲 搜索 算法 能 够 保持 串 行 算法 的 搜索 效果 ， 没 有 因 算 法 优化 及 并 行 化 而 出 现 搜索 结果 不 一 致 的 
情况 。 程 序 优 化 前 后 的 搜索 结果 图 如 图 7，(a) 为 原 程序 串 行 生成 的 搜索 结果 图 ，(b) 为 detrend 算 
法 优化 后 生成 的 搜索 结果 图 ，(c) 为 使 用 multiprocessing 模 块 并 行 化 生成 的 搜索 结果 图 ，(d) 为 使 
用 Ray 框 架 并 行 化 生成 的 搜索 结果 图 。 
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Fig. 7 Comparison of experimental results graphs 
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总 结 与 结 与 展望 


本 文 对 PRESTO 中 单 脉冲 搜索 技术 进行 了 介绍 及 分 析 ， 基 于 单 脉冲 搜索 技术 的 特点 ， 分 别 
使 用 Cython 编 程 、multiprocessing 并 行 模块 、Ray 并 行 框架 对 PRESTO 中 原单 脉冲 搜索 程序 进行 
优化 ， 在 保证 搜索 效果 的 基础 上 ， 显 著 提 升 了 单 脉冲 搜索 程序 性 能 。 本 文 算 法 优化 及 并 行 化 的 
[ 作 都 是 基于 纯 中 央 处 理 器 环境 ， 无 需 依 赖 CUDA 和 图 形 处 理 器 ， 无 需 修改 代码 ， 即 可 实现 在 
中 央 处 理 器 环境 下 高 性 能 单 脉冲 搜索 。 

原单 脉冲 搜索 程序 是 基于 python 开 发 的 ， 重 新 基于 C 或 C++ 语言 实现 程序 能 够 达到 更 好 的 加 
速效 果 ， 但 开发 周期 很 长 ， 为 了 进一步 提升 单 脉 冲 搜 索 程序 性 能 ， 下 一 步 可 以 尝试 将 PRESTO 
中 的 单 脉 冲 搜 索 程 序 完全 使 用 C 或 C++ 语言 实现 ， 并 使 用 Ray 框 架 搭建 集群 部 署 进行 分 布 式 并 行 
计算 ， 以 更 好 地 满足 日 益 增 长 的 脉冲 星 观 测 数据 的 快速 搜索 。 
致谢 :本文 在 FAST(500m 口 径 球面 射电 望远镜 ) 数据 基础 上 完成 。 FAST 是 由 中 国 科学 院 国 家 
天 文 台 运行 和 管理 的 国家 大 科学 装置 。 感 谢 贵 州 省 信息 与 计算 科学 重点 实验 室 提供 数据 支持 。 
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Abstract: Since the discovery of some objects without obvious periodicity, such as fast radio 
bursts and rotating radio temporary sources, the single pulse search approach has attracted extensive 
attention of researchers. Meanwhile, the radio telescope equipment is becoming more and more 
perfect, which brings higher resolution and wider observation space. Therefore, the amount of data 
generated by pulsar observation increases dramatically, and it is urgent to speed up the data processing 
of pulsars. The single pulse search in PRESTO (PulsaR Exploration and Search TOolkit) is introduced, 
the detrending algorithm in single pulse search is optimized by Cython programming, and the 
parallelization of single pulse search on CPU (Central Processing Units) is realized by Ray 
Framework. The experimental results show that the parallelization of the optimized single pulse 
search algorithm can significantly improve the performance of the search program and shorten the 
data processing time. At the same time, the parallel strategy is only based on CPU, so it can realize 
high-performance data processing in pure CPU environment without modifying the code. 

Key words: single pulse search; pulsar; parallelization 
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